1
Das Contagens ao Contexto: A Evolução da NLP
AI030Lesson 3
00:00

A evolução da NLP representa uma mudança fundamental no tratamento da linguagem como símbolos discretos e isolados para mapeá-la em um espaço vetorial contínuo e multidimensional. Passamos de representações simples representações baseadas em características para mapas semânticos profundos.

TF-IDF (Esparsa)Dimensões = Tamanho do VocabulárioWord2Vec (Distribuído)ReiRainhaMaçãDimensões = Características Latentes

A Mudança na Representação

  • A Era Estatística (Esparsa): A NLP inicial dependia do algoritmo TF-IDF. Embora eficaz para recuperação, sofre com a "maldição da esparsidade". Em um sistema TF-IDF, "Médico" e "Doutor" são vetores ortogonais — matematicamente, não têm relação alguma.
  • A Revolução Distribuída (NNLM e Word2Vec): Modelos de Linguagem de Redes Neurais introduziram vetores densos. O Word2Vec (Skip-gram/CBOW) aprende que palavras que aparecem em contextos semelhantes devem ser vizinhas no espaço.
  • Estatísticas Globais (GloVe): Vetores Globais pontuam a lacuna analisando a co-ocorrência global em todo o corpus, garantindo que a distância refletirá a similaridade semântica matemática.
Pergunta Profunda
A transição de contar ocorrências para prever contexto permite que os modelos capturassem nuances. Essa "Representação Distribuída" significa que o significado de uma única palavra é distribuído por centenas de dimensões vetoriais, cada uma podendo representar uma característica semântica latente, como gênero, realeza ou contexto médico.